ردیابی لب و لب خوانی بااستفاده از پردازش تصاویر ویدیویی

thesis
abstract

لب خوانی از سالیان پیش یکی از موضوعات و ابزارهای مهم برای افراد کم شنوا و ناشنوا بوده تا این افراد درک مناسبی نسبت به گفته های شخصی که در حال صحبت کردن است داشته باشند. اخیر? لب خوانی با استفاده از تصاویر ویدیویی (تصاویر متوالی) یکی از موضوعات مورد علاقه محققان بوده که طی چند دهه اخیر تحقیقات گسترده ای راجع به این مساله انجام داده و مقاله های متعددی در این باره چاپ نموده اند، چرا که استفاده از تصاویر ویدیویی از حرکات لب و دهان و اطلاعات حاصل از آن در شناسایی و تشخیص گفتار تحت شرایط صوتی نابهنجار و نویزی کمک موثری به شخص می کند. درحالت کلی گرچه نرخ شناسایی و تشخیص گفتار، با سیستم های لب خوانی پایین است ولی در چنین محیطهایی استفاده از اطلاعات تصویری به مراتب بهتر از اطلاعات صوتی می باشد. و بدین دلیل تلاشهای فراوانی برای بهبود عملکرد چنین سیستمهایی صورت گرفته است. هدف این پایان نامه معرفی یک سیستم لب خوانی میتنی بر پردازش تصویر برای کلمات فارسی می باشد. مراحل اصلی یک سیستم لب خوانی بصورت زیر می باشد: 1- بدست آوردن ناحیه لب از هر فریم ویدیویی 2- استخراج ویژگی های مهم از ناحیه لب 3- شناسایی کلمات بیان شده توسط هر گوینده با استفاده از پردازش زمانی ویژگیها از آنجا که مهمترین بخش یک سیستم لب خوانی بدست آوردن ویژگی های مناسب برای تشخیص گفتار است و این امر جز با استخراج مناسب لب از ناحیه چهره فرد میسر نخواهد شد بنابراین ما در این تحقیق از یک روش جدیدی برای جداسازی ناحیه لب از ناحیه پوست صورت شخص استفاده کرده ایم. در روش ارایه شده برای لب خوانی در این تحقیق ابتدا روشی برای جداسازی بهتر ناحیه لب از ناحیه پوست ارایه می شود سپس تصویر بدست آمده به عنوان بردار ویژگی به الگوریتم فازی جهت خوشه بندی صورت به دو ناحیه لب و پوست داده می شود. سپس با استفاده از یک آستانه گیری تطبیقی ناحیه لب را جدا ساخته و برای بدست آوردن پیرامون لب، مرز ناحیه لب را بدست می آوریم. اما از آنجا که مرز بدست آمده بدرستی بر روی مرز لب تصویر اصلی تطبیق نمی شود از مدل پیرامون فعال جهت حل این مشکل استفاده می کنیم. در مرحله بعد، از چندین ویژگی مانند ویژگی های هندسی لب به عنوان بردار ویژگی استفاده می کنیم و به عنوان ورودی به یکی از روشهای طبقه بندی از جمله شبکه عصبی داده و در نهایت شناسایی لازم انجام خواهد گرفت.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

مروری بر نقش لب خوانی در ارتباط کلامی و تکنیک های لب خوانی

مقدمه و اهداف گفتار عموما دارای چند وجه می باشد. سیستم ادراک گفتاری انسان از علامت های دیداری و شنیداری برای رمزگشایی گفتار تولید شده توسط گوینده، استفاده می کند. زمانی که یک فرد گفتار طبیعی را دریافت می کند، همزمان با شنیدن، آن را نیز می بیند و بخش ها و نواحی مسئول پردازش، اطلاعات بینایی و شنوایی مرتبط با گفتار را با یکدیگر ترکیب می کند. اطلاعات دیداری دهان و صورت گوینده، نقش مهمی را در درک و ...

full text

ردیابی شی در تصاویر ویدیویی

بینایی ماشین با ترکیب روش های مربوط به پردازش تصویر و ابزارهای یادگیری ماشینی، رایانه را قادر به درک هوشمند معنا و محتوای تصاویر می کند. ردیابی شی یک عمل اساسی برای بسیاری از کاربردهای سطح بالای بینایی ماشین مانند بازشناسی براساس حرکت، نظارت خودکار، نمایه گذاری فایل های ویدیویی، ارتباطات متقابل انسان و رایانه، نظارت ترافیکی و هدایت وسایل نقلیه است که امروزه در بالاترین سطح توجه خود قرار دارد. ...

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی و مهندسی

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023